Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
语义Web技术已成功促进了许多具有丰富数据表示方法的RDF模型。它还具有代表和存储多模式知识库(例如多模式场景图)的潜在能力。但是,大多数现有的查询语言,尤其是SPARQL,几乎没有探索隐式多模式关系,例如语义相似性,空间关系等。我们首先通过在RDF图数据库中组织一个大型场景图(即视觉基因组)来探索此问题。基于建议的RDF存储的多模式场景图,我们扩展了SPARQL查询,以回答包含有关颜色,空间等关系推理的问题。进一步的演示(即VGStore)显示了定制查询和显示多模式数据的有效性。
translated by 谷歌翻译
知识图嵌入(KGE)旨在将实体和关系映射到低维空间,并成为知识图完成的\ textit {de-facto}标准。大多数现有的KGE方法都受到稀疏挑战的困扰,在这种挑战中,很难预测在知识图中频繁的实体。在这项工作中,我们提出了一个新颖的框架KRACL,以减轻具有图表和对比度学习的KG中广泛的稀疏性。首先,我们建议知识关系网络(KRAT)通过同时将相邻的三元组投射到不同的潜在空间,并通过注意机制共同汇总信息来利用图形上下文。 KRAT能够捕获不同上下文三联的微妙的语义信息和重要性,并利用知识图中的多跳信息。其次,我们通过将对比度损失与跨熵损失相结合,提出知识对比损失,这引入了更多的负样本,从而丰富了对稀疏实体的反馈。我们的实验表明,KRACL在各种标准知识基准中取得了卓越的结果,尤其是在WN18RR和NELL-995上,具有大量低级内实体。广泛的实验还具有KRACL在处理稀疏知识图和鲁棒性三元组的鲁棒性方面的有效性。
translated by 谷歌翻译
高密度物体(例如金属植入物和牙科填充物)的存在可以在计算机断层扫描(CT)图像中引入严重的条纹样伪像,从而极大地限制了随后的诊断。尽管已经提出了用于减少金属伪像的各种基于神经网络的方法(MAR),但由于对正式域中的全球环境的利用有限,图像域引入的次生伪像,它们的性能通常不佳,并且需要精确的次要伪像。金属面具。为了解决这些问题,本文探讨了在辛图和图像域中在MAR中的快速傅立叶卷积,并提出了MAR的傅立叶双域网络,称为FD-MAR。具体而言,我们首先提出了一个傅立叶曲调恢复网络,该网络可以利用辛克图范围内的接受环境来填充来自未腐败区域的金属腐败区域,因此对金属痕迹是可靠的。其次,我们在图像域中提出了一个傅立叶细化网络,该网络可以通过探索整个图像范围的上下文信息以局部到全球的方式来完善重建的图像。结果,拟议的FD-MAR可以探索MAR的正式和图像范围的接收场。通过通过复合损失函数优化FD-MAR,广泛的实验结果证明了拟议的FD-MAR在定量指标和视觉比较方面的优越性优于最先进的MAR方法。值得注意的是,FD-MAR不需要精确的金属口罩,这在临床常规中非常重要。
translated by 谷歌翻译
Twitter机器人检测已成为打击错误信息,促进社交媒体节制并保持在线话语的完整性的越来越重要的任务。最先进的机器人检测方法通常利用Twitter网络的图形结构,在面对传统方法无法检测到的新型Twitter机器人时,它们表现出令人鼓舞的性能。但是,现有的Twitter机器人检测数据集很少是基于图形的,即使这些基于图形的数据集也遭受有限的数据集量表,不完整的图形结构以及低注释质量。实际上,缺乏解决这些问题的大规模基于图的Twitter机器人检测基准,严重阻碍了基于图形的机器人检测方法的开发和评估。在本文中,我们提出了Twibot-22,这是一个综合基于图的Twitter机器人检测基准,它显示了迄今为止最大的数据集,在Twitter网络上提供了多元化的实体和关系,并且与现有数据集相比具有更好的注释质量。此外,我们重新实施35代表性的Twitter机器人检测基线,并在包括Twibot-22在内的9个数据集上进行评估,以促进对模型性能和对研究进度的整体了解的公平比较。为了促进进一步的研究,我们将所有实施的代码和数据集巩固到Twibot-22评估框架中,研究人员可以在其中始终如一地评估新的模型和数据集。 Twibot-22 Twitter机器人检测基准和评估框架可在https://twibot22.github.io/上公开获得。
translated by 谷歌翻译
在图像变压器网络的编码器部分中的FineTuning佩带的骨干网一直是语义分段任务的传统方法。然而,这种方法揭示了图像在编码阶段提供的语义上下文。本文认为将图像的语义信息纳入预磨料的基于分层变换器的骨干,而FineTuning可显着提高性能。为实现这一目标,我们提出了一个简单且有效的框架,在语义关注操作的帮助下将语义信息包含在编码器中。此外,我们在训练期间使用轻量级语义解码器,为每个阶段提供监督对中间语义的先前地图。我们的实验表明,结合语义前导者增强了所建立的分层编码器的性能,随着絮凝物的数量略有增加。我们通过将Sromask集成到Swin-Cransformer的每个变体中提供了经验证明,因为我们的编码器与不同的解码器配对。我们的框架在CudeScapes数据集上实现了ADE20K数据集的新型58.22%的MIOU,并在Miou指标中提高了超过3%的内容。代码和检查点在https://github.com/picsart-ai-research/semask-egation上公开使用。
translated by 谷歌翻译
识别新闻媒体的政治观点已成为政治评论的快速增长和日益极化的政治意识形态的重要任务。以前的方法专注于文本内容,留出富裕的社会和政治背景,这在论证挖掘过程中至关重要。为了解决这一限制,我们提出了一种政治透视检测方法,包括外部域知识。具体而言,我们构建一个政治知识图形,以作为特定于域的外部知识。然后我们利用异质信息网络来代表新闻文件,共同模仿新闻文本和外部知识。最后,我们采用关系图神经网络,并作为图形级分类进行政治视角检测。广泛的实验表明,我们的方法始终如一地实现了两个现实世界的透视检测基准的最佳性能。消融研究进一步承担了外部知识的必要性以及我们基于图形的方法的有效性。
translated by 谷歌翻译
由于难以应变的分区功能,通过最大可能性培训基于能量的模型(EBMS)需要Markov链蒙特卡罗(MCMC)采样,以近似数据和模型分布之间的kullback-Leibler发散的梯度。然而,由于模式之间的混合难以混合,因此从EBM中的样本是不普遍的。在本文中,我们建议学习变形式自动编码器(VAE)以初始化有限步骤MCMC,例如源自能量函数的Langevin动态,用于EBM的有效摊销采样。利用这些倒置的MCMC样品,可以通过最大似然训练EBM,其遵循“通过合成分析”方案;虽然VAE通过变分贝叶斯从这些MCMC样品中学习。我们称之为该联合训练算法的变分MCMC教学,其中VAE将ebm追溯到数据分布。我们将学习算法解释为信息几何上下文中的动态交替投影。我们所提出的模型可以生成与GANS和EBM相当的样本。此外,我们证明我们的模型可以了解有效的概率分布对受监督的条件学习任务。
translated by 谷歌翻译
迭代线性二次调节器(ILQR)在解决非线性系统模型的轨迹优化问题方面已广泛普及。但是,作为一种基于模型的拍摄方法,它在很大程度上依赖于准确的系统模型来更新最佳控制动作和通过正向集成确定的轨迹,从而变得容易受到不可避免的模型的影响。最近,针对最佳控制问题的基于学习的方法进行的大量研究工作在解决未知系统模型方面已经取得了显着发展,尤其是当系统与环境具有复杂的相互作用时。然而,通常需要一个深层的神经网络来拟合大量的采样数据。在这项工作中,我们提出了神经-ILQR,这是一种在不受约束的控制空间上进行学习的拍摄方法,其中使用简单结构的神经网络代表局部系统模型。在此框架中,通过同时完善最佳策略和神经网络迭代,可以实现轨迹优化任务,而无需依靠系统模型的先验知识。通过对两项说明性控制任务的全面评估,在系统模型中存在不准确性的情况下,提出的方法显示出胜过常规ILQR。
translated by 谷歌翻译
Prior works on Information Extraction (IE) typically predict different tasks and instances (e.g., event triggers, entities, roles, relations) independently, while neglecting their interactions and leading to model inefficiency. In this work, we introduce a joint IE framework, HighIE, that learns and predicts multiple IE tasks by integrating high-order cross-task and cross-instance dependencies. Specifically, we design two categories of high-order factors: homogeneous factors and heterogeneous factors. Then, these factors are utilized to jointly predict labels of all instances. To address the intractability problem of exact high-order inference, we incorporate a high-order neural decoder that is unfolded from a mean-field variational inference method. The experimental results show that our approach achieves consistent improvements on three IE tasks compared with our baseline and prior work.
translated by 谷歌翻译